Humanidades

Os modelos de IA fazem cópias precisas de caracteres cuneiformes
Decifrar a escrita de algumas pessoas pode ser um grande desafio, especialmente quando essa escrita é composta de caracteres cuneiformes impressos em tábuas de 3.000 anos.
Por Patricia Waldron - 05/03/2025


Resultados da amostra: alinhando os protótipos (primeira linha) para atingir imagens cuneiformes (segunda linha). Os resultados são ilustrados tanto após o alinhamento global (terceira linha) quanto após o refinamento (linha inferior). Crédito: ProtoSnap: Prototype Alignment for Cuneiform Signs (2025).


Decifrar a escrita de algumas pessoas pode ser um grande desafio, especialmente quando essa escrita é composta de caracteres cuneiformes impressos em tábuas de 3.000 anos.

Agora, estudiosos do Oriente Médio podem usar inteligência artificial (IA) para identificar e copiar caracteres cuneiformes de fotos de tabuletas, permitindo que eles leiam escritas complicadas com facilidade.

Junto com os hieróglifos egípcios, o cuneiforme é uma das mais antigas formas de escrita conhecidas, e consiste em mais de 1.000 caracteres únicos. A aparência desses caracteres pode variar entre eras, culturas, geografia e até mesmo escritores individuais, tornando-os difíceis de interpretar. Pesquisadores da Cornell e da Universidade de Tel Aviv (TAU) desenvolveram uma abordagem chamada ProtoSnap que "encaixa" no lugar um protótipo de um caractere para se ajustar às variações individuais impressas em uma tábua.

Com a nova abordagem, eles podem fazer uma cópia precisa de qualquer caractere e reproduzir tabletes inteiros.

"Quando você volta ao mundo antigo , há uma enorme variabilidade nas formas dos caracteres", disse Hadar Averbuch-Elor, professor assistente de ciência da computação na Cornell Tech e na Cornell Ann S. Bowers College of Computing and Information Science, que liderou a pesquisa. "Mesmo com o mesmo caractere, a aparência muda ao longo do tempo, e por isso é um problema muito desafiador ser capaz de decifrar automaticamente o que o caractere realmente significa."

Rachel Mikulinsky, estudante de mestrado e coautora da TAU, apresentará " ProtoSnap: Alinhamento de protótipos para sinais cuneiformes " em abril na Conferência Internacional sobre Representações de Aprendizagem (ICLR).

Estima-se que 500.000 tabletes cuneiformes estejam em museus, mas apenas uma fração foi traduzida e publicada. "Há uma quantidade infinita de scans 2D desses cuneiformes, mas a quantidade de dados rotulados é muito escassa", disse Averbuch-Elor.

Para ver se eles poderiam decifrar automaticamente essas varreduras, a equipe aplicou um modelo de difusão — um tipo de modelo de IA generativo frequentemente usado para tarefas de visão computacional, como geração de imagens — para calcular a similaridade entre cada pixel em uma imagem de um personagem em um tablet e um protótipo geral do personagem. Então eles alinharam as duas versões e encaixaram o modelo para corresponder aos traços do personagem real.

Os caracteres capturados também podem ser usados para treinar modelos de IA downstream que realizam reconhecimento óptico de caracteres — essencialmente transformando imagens dos tabletes em texto legível por máquina. Os pesquisadores mostraram que, quando treinados com esses dados, os modelos downstream têm um desempenho muito melhor no reconhecimento de caracteres cuneiformes — mesmo aqueles que são raros ou que mostram muita variação — em comparação com esforços anteriores usando IA.

Esse avanço pode ajudar a automatizar o processo de cópia em tabletes, economizando inúmeras horas para especialistas e permitindo comparações em larga escala de caracteres entre diferentes épocas, cidades e escritores.

"Na base da nossa pesquisa está o objetivo de aumentar as fontes antigas disponíveis para nós em dez vezes", disse o coautor Yoram Cohen, professor de arqueologia na TAU. "Isso nos permitirá, pela primeira vez, a manipulação de big data, levando a novos insights mensuráveis sobre sociedades antigas — sua religião, economia, vida social e jurídica."


Mais informações: ProtoSnap: Alinhamento de protótipos para sinais cuneiformes: tau-vailab.github.io/ProtoSnap/

Conferência Internacional sobre Representações de Aprendizagem: iclr.cc/

 

.
.

Leia mais a seguir